1
超越一维:为何二维布局感知至关重要
AI023Lesson 7
00:00

虽然一维内核将数据视为线性流, 二维布局感知 却将范式转向对结构化 “块”的处理。现代 GPU 硬件通过将元素分组为二维网格来优化性能,以最大化空间局部性并利用专用张量核心。

1. 超越逐元素计算

在一维中,每个线程计算一个标量。在 Triton 的二维内核中,程序会同时操作整个块。这将简单的向量加法推广为复杂的矩阵变换(如 GEMM)。

2. 空间局部性

理解相邻元素(水平和垂直方向)如何被加载到缓存中,是教育型内核迈向生产就绪内核的关键跃升。这确保了即使在转置或填充内存的情况下,内核也能高效访问数据而不会浪费带宽。

一维线性流二维分块网格(布局感知)块泛化

3. 通往生产的路径

掌握二维布局可实现数据在 流式多处理器(SMs) 上的高效划分。例如,一个能识别宽度/高度的矩阵复制操作可以将 16×16 的块加载到高速片上内存中,同时尊重张量的物理“步长”。

main.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>